Mixture of Experts Explained
专家并行
图解大模型训练系列之:DeepSpeed-Megatron MoE并行训练(原理篇) - 53AI-AI生产力的卓越领导者(大模型知识库|大模型训练|智能体开发)
如何看待deepseek新开源的第二个项目DeepEP? - 知乎